Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) base de datos (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: base de datos


Is in goldstandard

1
paper corpusSignosTxtLongLines179 - : La arquitectura del AutoTutor incluye un conjunto de bases de datos permanentes que no se actualizan durante el transcurso de la tutoría. El primero es una base de datos de guión curricular, que contiene un conjunto completo de materiales para la tutoría que incluye: preguntas para la tutoría, respuestas ideales, expectativas de respuestas (componentes específicos necesarios para una respuesta completa ), conceptos erróneos asociados y otras movidas dialógicas con contenido relacionado. Para cada uno de los problemas conceptuales de física planteados por el AutoTutor, los expertos en el dominio de la física han creado un conjunto de expectativas necesarias para una buena respuesta y un conjunto de posibles errores para un problema dado. En nuestro ejemplo previo, al que nos referimos como “el problema del ascensor y las llaves”, algunas de las expectativas asociadas son:

2
paper corpusSignosTxtLongLines179 - : Una segunda base de datos permanente es una copia indexada del libro de texto Conceptual Physics (Hewitt, 1998 ). Si un estudiante hiciera una pregunta al AutoTutor, el tutor usaría un componente de contestar preguntas sacando una respuesta relacionada del libro de texto u otro documento relevante. De igual modo, el AutoTutor hace uso de un glosario del texto Conceptual Physics como una tercera base de datos permanente. En cuarto lugar, el servidor contiene un conjunto de lexicones, analizadores sintácticos y otros módulos de lingüística computacional que apoyan la extracción de información, analizan las contribuciones de los estudiantes y ayudan al AutoTutor a proceder en forma adecuada durante la sesión de tutoría. En quinto lugar, el servidor alberga un espacio para el Análisis Semántico Latente (LSA, por sus iniciales en inglés), como se expondrá brevemente más adelante.

3
paper corpusSignosTxtLongLines209 - : A partir de la base de datos con las referencias bibliográficas se trabajó paralelamente en varios frentes de acción:

4
paper corpusSignosTxtLongLines276 - : Los ejemplos que ilustran los distintos valores de -ero que se presentan a continuación y más adelante en el texto, han sido extraídos de la Base de Datos del Observatorio de Neología (BOBNEO) de Barcelona^[33]3:

5
paper corpusSignosTxtLongLines317 - : La muestra de textos analizados está formada por 29 noticias aparecidas en periódicos nacionales, regionales y locales españoles en 2006, y que cubren la polémica suscitada entre el Ministerio de Sanidad y Consumo español y la empresa Burger King. La extensión total aproximada de la muestra es de 10.700 palabras. Para la selección de las noticias hemos utilizado la base de datos española ICONOCE, una base de datos de textos periodísticos publicados en periódicos nacionales e internacionales . Los textos recogidos son de extensión muy variable, desde breves notas de 60 palabras hasta textos más elaborados de hasta 700 palabras, si bien la mayor parte de ellos contiene entre 350 y 600 palabras. Se trata de noticias de testimonio, es decir, que recogen declaraciones de los protagonistas; en este caso principalmente del Ministerio de Sanidad y Consumo y Burger King. Trece noticias están publicadas en la sección de ‘Sociedad’ (sección habitual en la que se insertan las informaciones sobre salud:

6
paper corpusSignosTxtLongLines340 - : De acuerdo a lo anterior, el aporte específico del modelo de estudiante es, por una parte, obtener datos sobre las características del estudiante y almacenarlos en una base de datos para su posterior utilización: y por otra parte, actualizar constantemente esta información en caso de que cambie durante la interacción con el STI . Todos los datos almacenados en el modelo de estudiante son utilizados luego por el sistema para seleccionar una estrategia de feedback que mejor se adapte a las características del estudiante. El modelo del estudiante de ELE-TUTOR (como se observa en la [37]Figura 5) recoge una serie de información con respecto a cada uno de los estudiantes que interactúan con el STI. En el modelo planteado, el sistema recibe información con respecto al estilo de aprendizaje, el nivel de proficiencia y el tipo de error que comete el estudiante, lo cual permite que el módulo tutor genere un feedback específico y adaptado a las características de cada estudiante.

7
paper corpusSignosTxtLongLines378 - : Aun así, en estadística (Moore, 1998; Landau & Everitt, 2004; Field, 2009), los grupos analizados deben ser homogéneos, así que, por este motivo, se han analizado los valores de la primera sílaba (sea átona o tónica), de la primera sílaba tónica, de la sílaba ‘-men’ y de la sílaba ‘-te. El único valor que se ha desdoblado es el de ‘obviamente’, ya que, en su caso, la primera sílaba y la primera sílaba tónica coinciden, por lo que sus registros acústicos se han duplicado en la base de datos ([30]Tabla 3):

8
paper corpusSignosTxtLongLines398 - : La carpeta para poner su base de datos no existe: %1 ¿Desea que la cree digiKam ?

9
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectMe. Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28 ). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la

10
paper corpusSignosTxtLongLines547 - : Para la digitalización de la información del Manual del ALEC, se diseñaron formularios que cargan de forma directa la información a la BDE por cada una de las entidades que hacen parte de la base de datos distribuidas de la siguiente manera: Localidades, Campos Semánticos, Encuestadores e Informantes . En cada tabla, los metadatos se ubicaron en la fila superior y los datos correspondientes a cada una fueron llenados columna a columna, como podemos observar en el siguiente ejemplo de la Tabla Encuestadores.

11
paper corpusSignosTxtLongLines549 - : 1) Se buscaron en diccionarios y nomenclaturas médicas lexicalizaciones para el concepto signo y síntoma, así como hipónimos (dolor, picor, disnea…) destacados en portales médicos como Onmeda,^[98]^9 y se combinaron con los conceptos categorizados en la base de datos de CombiMed como tipo de Signo/Síntoma que afecta a todo el cuerpo: http://combimed .ugr.es/combimed/search.php?

12
paper corpusSignosTxtLongLines555 - : Para evaluar la representación, se utilizaron cuatro conjuntos de datos textuales multietiquetados conocidos: REUTERS-21578, OHSUMED, ENRON y MEDICAL. Para REUTERS-21578, que es un conjunto de textos de noticias, se consideró un subconjunto modificado que se propuso en ^[85]Read et al. (2011) con el fin de poder obtener medidas de desempeño comparativas. El conjunto de datos OHSUMED es una partición de la base de datos MEDLINE, que es una biblioteca de artículos científicos publicados en revistas médicas . La colección OHSUMED también se ha reducido de 50.216 a 13.929 textos. Este subconjunto contiene las 10 categorías más representativas de las 23 categorías originales. El conjunto de datos de Enron es una colección de textos creados por el proyecto CALO (Cognitive Assistant that Learns and Organizes), que contiene 1.702 mensajes de correo electrónico y 52 categorías. Por último, el conjunto de datos Medical fue creado por la Computational Medicine Center, 2007 a propósito del Language

Evaluando al candidato base de datos:


2) estudiante: 6
4) sílaba: 6 (*)
5) textos: 6 (*)
6) noticias: 5
7) autotutor: 5 (*)
10) texto: 4 (*)
12) tónica: 3 (*)
13) tabla: 3
14) ohsumed: 3
16) palabras: 3 (*)
17) respuesta: 3
19) expectativas: 3

base de datos
Lengua: spa
Frec: 109
Docs: 45
Nombre propio: 1 / 109 = 0%
Coocurrencias con glosario: 6
Puntaje: 6.857 = (6 + (1+5.6724253419715) / (1+6.78135971352466)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
base de datos
: Renau, I. & Nazar, R. (2018). Verbario. Base de datos de verbos del español [en línea]. Disponible: [149]http://www.verbario.com.
: Rojas Nieto, C. (2007). La base de datos ETAL. Origen, descripción y metas de un proyecto. En Jornadas Filológicas 2005 (pp. 571-601). Ciudad de México: Instituto de Investigaciones Filológicas-UNAM.
: Sadowsky, S. & Martínez, R. (2004). Lista de frecuencias de palabras del castellano de Chile (Lifcach). Versión 1.0/1.1. Base de datos electrónica [en línea]. Disponible en: [140]http://sadowsky.cl/lifcach.html
: Sebastián-Gallés, N., Martí, M. A., Carreiras, M. & Cuetos, F. (2000). LEXESP: Una base de datos informatizada del español. Barcelona: Universitat de Barcelona.